Cofundada por um ex-aluno do MIT, a Watershed Bio oferece aos pesquisadores que não são engenheiros de software uma maneira de executar análises em larga escala para acelerar a biologia.

A Watershed Informatics oferece aos pesquisadores que não são desenvolvedores uma maneira de executar análises em larga escala para acelerar a biologia. Crédito: MIT News; iStock
Com a queda acentuada dos custos das tecnologias de diagnóstico e sequenciamento nos últimos anos, pesquisadores coletaram uma quantidade sem precedentes de dados sobre doenças e biologia. Infelizmente, cientistas que desejam transformar dados em novas curas muitas vezes precisam da ajuda de alguém com experiência em engenharia de software.
Agora, a Watershed Bio está ajudando cientistas e bioinformatas a realizar experimentos e obter insights com uma plataforma que permite aos usuários analisar conjuntos de dados complexos, independentemente de suas habilidades computacionais. A plataforma baseada em nuvem oferece modelos de fluxo de trabalho e uma interface personalizável para ajudar os usuários a explorar e compartilhar dados de todos os tipos, incluindo sequenciamento de genoma completo, transcriptômica, proteômica, metabolômica, imagens de alto conteúdo, enovelamento de proteínas e muito mais.
“Os cientistas querem aprender sobre as áreas de software e ciência de dados, mas não querem se tornar engenheiros de software escrevendo códigos apenas para entender seus dados”, afirma o cofundador e CEO Jonathan Wang, turma de 2013 da SM, turma de 2015. “Com a Watershed, eles não precisam.”
O Watershed está sendo usado por grandes e pequenas equipes de pesquisa na indústria e no meio acadêmico para impulsionar descobertas e a tomada de decisões. Quando novas técnicas analíticas avançadas são descritas em periódicos científicos, elas podem ser adicionadas à plataforma do Watershed imediatamente como modelos, tornando ferramentas de ponta mais acessíveis e colaborativas para pesquisadores de todas as áreas.
“Os dados em biologia estão crescendo exponencialmente, e as tecnologias de sequenciamento que geram esses dados estão cada vez melhores e mais baratas”, diz Wang. “Vindo do MIT, essa questão era exatamente o que eu queria: é um problema técnico complexo. É também um problema significativo porque essas pessoas estão trabalhando no tratamento de doenças. Elas sabem que todos esses dados têm valor, mas têm dificuldade em usá-los. Queremos ajudá-las a obter mais insights com mais rapidez.”
Nenhuma descoberta de código
Wang esperava se formar em biologia no MIT, mas rapidamente se entusiasmou com as possibilidades de desenvolver soluções que pudessem ser aplicadas a milhões de pessoas por meio da ciência da computação. Ele acabou concluindo o bacharelado e o mestrado no Departamento de Engenharia Elétrica e Ciência da Computação (EECS). Wang também estagiou em um laboratório de biologia no MIT, onde se surpreendeu com a lentidão e a intensidade de trabalho dos experimentos.
“Eu percebi a diferença entre biologia e ciência da computação, onde havia esses ambientes dinâmicos [na ciência da computação] que permitiam obter feedback imediato”, diz Wang. “Mesmo sendo uma única pessoa escrevendo código, você tem muito a oferecer.”
Enquanto trabalhava com aprendizado de máquina e computação de alto desempenho no MIT, Wang também cofundou uma empresa de negociação de alta frequência com alguns colegas. Sua equipe contratou pesquisadores com doutorado em áreas como matemática e física para desenvolver novas estratégias de negociação, mas logo perceberam um gargalo no processo.
“As coisas estavam avançando lentamente porque os pesquisadores estavam acostumados a construir protótipos”, diz Wang. “Eram pequenas aproximações de modelos que eles poderiam executar localmente em suas máquinas. Para colocar essas abordagens em produção, eles precisavam de engenheiros que as fizessem funcionar com alto rendimento em um cluster de computação. Mas os engenheiros não entendiam a natureza da pesquisa, então havia muita ida e volta. Isso significava que ideias que você achava que poderiam ser implementadas em um dia levavam semanas.”
Para resolver o problema, a equipe de Wang desenvolveu uma camada de software que tornou a construção de modelos prontos para produção tão fácil quanto construir protótipos em um laptop. Então, alguns anos depois de se formar no MIT, Wang percebeu que tecnologias como o sequenciamento de DNA haviam se tornado baratas e onipresentes.
“O gargalo não era mais o sequenciamento, então as pessoas disseram: 'Vamos sequenciar tudo'”, lembra Wang. “O fator limitante passou a ser a computação. As pessoas não sabiam o que fazer com todos os dados gerados. Os biólogos esperavam que cientistas de dados e bioinformáticos os ajudassem, mas essas pessoas nem sempre entendiam a biologia em um nível suficientemente profundo.”
A situação parecia familiar para Wang.
“Foi exatamente como o que vimos em finanças, onde pesquisadores tentavam trabalhar com engenheiros, mas estes nunca entendiam completamente, e havia toda essa ineficiência com pessoas esperando pelos engenheiros”, diz Wang. “Enquanto isso, descobri que os biólogos estão ávidos para realizar esses experimentos, mas há uma lacuna tão grande que eles sentiram que precisavam se tornar engenheiros de software ou simplesmente se concentrar na ciência.”
Wang fundou oficialmente a Watershed em 2019 com o médico Mark Kalinich '13, um ex-colega de classe do MIT que não está mais envolvido nas operações diárias da empresa.
Desde então, Wang tem ouvido executivos de biotecnologia e farmacêutica sobre a crescente complexidade da pesquisa em biologia. A descoberta de novos insights envolve cada vez mais a análise de dados de genomas inteiros, estudos populacionais, sequenciamento de RNA, espectrometria de massas e muito mais. Desenvolver tratamentos personalizados ou selecionar populações de pacientes para um estudo clínico também pode exigir enormes conjuntos de dados, e há novas maneiras de analisar dados publicados em periódicos científicos o tempo todo.
Hoje, as empresas podem executar análises em larga escala no Watershed sem precisar configurar seus próprios servidores ou contas de computação em nuvem. Os pesquisadores podem usar modelos prontos que funcionam com todos os tipos de dados mais comuns para acelerar seu trabalho. Ferramentas populares baseadas em IA, como AlphaFold e Geneformer, também estão disponíveis, e a plataforma do Watershed facilita o compartilhamento de fluxos de trabalho e a análise mais aprofundada dos resultados.
“A plataforma atinge um ponto ideal de usabilidade e personalização para pessoas de todas as origens”, diz Wang. “Nenhuma ciência é verdadeiramente igual. Evito a palavra produto porque isso implica que você implementa algo e depois o executa em escala para sempre. Pesquisa não é assim. Pesquisa é ter uma ideia, testá-la e usar o resultado para criar outra ideia. Quanto mais rápido você projetar, implementar e executar experimentos, mais rápido poderá passar para o próximo.”
Acelerando a biologia
Wang acredita que o Watershed está ajudando os biólogos a se manterem atualizados com os últimos avanços na biologia e acelerando as descobertas científicas no processo.
“Se você puder ajudar os cientistas a obter insights não um pouco mais rápido, mas 10 ou 20 vezes mais rápido, isso pode realmente fazer a diferença”, diz Wang.
O Watershed está sendo usado por pesquisadores no meio acadêmico e em empresas de todos os portes. Executivos de empresas de biotecnologia e farmacêuticas também usam o Watershed para tomar decisões sobre novos experimentos e candidatos a medicamentos.
“Temos visto sucesso em todas essas áreas, e o ponto em comum é que as pessoas entendem de pesquisa, mas não são especialistas em ciência da computação ou engenharia de software”, diz Wang. “É emocionante ver esse setor se desenvolver. Para mim, é ótimo ser do MIT e agora estar de volta à Kendall Square, onde a Watershed está sediada. É aqui que grande parte do progresso de ponta está acontecendo. Estamos tentando fazer a nossa parte para viabilizar o futuro da biologia.”